会计与金融中的文本分析（三）：文本相似度、实操、展望与总结【学术前沿】

Original 智能财会研究院智能财会联盟 2023-02-24

4、文本相似度分析

虽然最近文本分析的热点侧重于情感分析或语气分析，但另有一套方法是通过度量文档相似性来进行分析的。识别语义相似度(这是文档相似度的基础)对于人类来说是一项相对简单的任务，但是在计算上具有挑战性(例如，计算机无法理解猫和老鼠是一对有联系的事物)。

一些论文使用了一种来自自然语言处理和信息科学文献的方法来衡量文本相似性，一种被称为余弦相似性的方法。

给定两个文档d1和d2，将它们转换由单词组组成的成两个向量x和y，那么他们之间从第1到N个单词的余弦相似度被定义为

分子上的点积提供了一种简单的相似性度量，而分母则根据向量的欧几里得长度进行缩放。几何上它是是两个向量夹角的余弦。虽然分子提供了一种相似性度量，但由于缺乏标准，单凭分子本身很难有说服力。分母使度量标准化，在这种情况下，这有助于使度量不受文档长度的影响。

如果我们对式中每个向量的数值进行均值调整，那么度量结果将是一个简单的Pearson相关。虽然余弦相似度度量是自然编程语言文献中选择的度量，但是在商业领域中，似乎没有什么理由使用这个度量来代替简单的相关性。Egozi, Markovitch和Gabrilovich提出了一个有趣的余弦相似度和LSA的组合，它使用Wikipedia作为建立单词分类上下文的一种方法。尽管我们不了解这种技术在会计和金融中的应用，但GAAP等来源的会计标准和规则体系将为计算确定词义和度量文档相似性提供有用的上下文环境。

5、执行与实操

在本节中，我们将讨论与文本分析实现相关的其他一些需要注意的领域，并考虑执行方法的各个方面。我们还提供了一个简单的应用示例。

5.1、判断单词

因为所有的文本方法的第一步都是基于单词，所以最初的步骤之一是将每个文档解析为一连串的记号（tokens)，记号是一些字符集合。这个步骤可以产生一个相对较长的列表，通过只选择那些映射到单词列表的标记，这个列表将被大大缩短。这反过来又要求研究人员指定哪些字符集合被认为是有效单词。

由于单词列表对于试图破解通行证的黑客有很大的价值，互联网上有各种各样的列表可供使用。如果把缩略语和专有名词也包括在内，这个列表可以超过100万个条目。Loughran和McDonald开发了一个基于“2of12inf”字典的与商业相关的文本分析的单词列表。此列表包括词形变化，但不包括缩写、首字母缩写或专有名词。2of12inf单词列表包含超过80000个单词。

Loughran和McDonald在他们的字典中扩展了这一核心列表，他们检测了所有10-K和10-Q格式的SEC和EDGAR文件中的标记。将所有频率计数为100或更多且作为单词可标识的标记都添加到字典中。Loughran和McDonald每隔一年更新一次他们的词典。考虑到布莱克-斯科尔斯这个词的重要性和使用频率，他们唯一的专有名词是“斯科尔斯”。

他们的词典还包括语形变化，而不是词干变化，因为如果重点放在语气上，他们发现使用词干变化比使用明确的词形变化(词根词素+派生词素)更容易出错。检测单词的另一个方面是确定如何处理带连字符的标记。Loughran和McDonald的词典中大量单词都是在财务披露中出现的，他们通过比较不同可能结果的可能性来消除连字符的歧义。

5.2、句子

在许多关注可读性的研究中，研究人员需要计算每个句子的平均字数，特别是Fog指数需要这种计数。在文本分析过程中，完成这一任务通常是一个简单的步骤。

从文本分析来说，一本典型的小说和财务披露之间的差异是巨大的。这是需要记住的一个重要特性。在句子消歧的情况下，这些差异非常重要。大量列表、技术术语和其他格式复杂性的存在，使得在会计信息披露中消除句子歧义特别具有挑战性。一个典型的尝试是，首先删除缩写、标题和数字(带有小数)，然后假定其余的句点是句子的结尾。每个句子的平均单词数是由单词总数除以句子的终止符号数决定的。然而如果不进行一些武断的假设(比如每个句子不超过60个单词)，那么有些解析错误可能非常严重。有时，研究人员可能会错误地识别句子的结尾。沿着这个思路，Bushee、Gow和Taylo强调了一些文献中的用于计算每个句子的单词数的Perl例程“被数字和缩写中使用的标点搞混了”。因此，他们断言许多研究中所列的Fog指数值是错误的低Fog指数值。

这里的要点是，解析过程中看似相对简单的步骤可能很复杂，而且在许多情况下非常不稳定。计算语言学在解决消除歧义的句子方面有着悠久的历史。在某种程度上，识别句子是文本研究的一个关键方面，研究人员必须仔细考虑应采取的步骤，以避免出现与分析相关的问题。一般的句子解析算法在财务文档上不能很好地工作。

5.3、为什么积极语气或净语气是有问题的

在文本分析中，许多文献关注积极和消极信息之间的简单区别。考虑到一般语言的细微差别和英语语言的无定形性质，关注简单的属性和微妙的情感状态是值得称赞的。除了积极/消极的明显二分法外，一些论文还考虑了净语气值。在我们在这方面所做的工作中，我们的结果一再加强了我们在阅读财务文件时所观察到的情况。也就是说，消极的词语看起来毫不含糊——管理层很少会否定他们在消极词语中表现出来的意味来试图让陈述更乐观。

另一方面，除了肯定的用法外，肯定的词也经常被用来构成否定句。举个简单的例子:一位谨慎的经理可能会用90%的积极词汇解雇一名员工。另一个例子是，通用汽车公司在2008年2月28日提交的年度报告中强调，“2007年，全球汽车行业继续显示出强劲的销售和收入增长”(第48页)。这是在2007年通用损失387亿美元(美国公司历史上最大的年度损失之一)的情况下的数据。虽然对这个问题的快速计算反应是考虑围绕肯定词的否定，但这比在目标词之前查找“no”和“not”这样的词要复杂得多。

5.4、针对强制披露部分

美国证券交易委员会每年10 - k文件是一个在会计和金融文献中已经受到了相当大的关注的文本材料库。如果你正在考虑对这份文档做一个特定的文本分析，你可能会收到的一个建议是重点分析文档的特定部分。例如，如果你试图在文档中度量不确定性，有些人会认为你应该分析并关注10-K文档的MD&A部分。

乍一看，这似乎很简单——也就是说，找到标记为“第7项，管理讨论和分析”的片段（Item 7. Management Discussion and Analysis）。然而，我们必须加一些限定，例如，你不想在目录中识别这个短语;你不会想要找出一个句子只是引用了这个词;“7”可以是一个数字，一个罗马数字，或者一个单词;“项目”这个词可能出现，也可能不出现。找到MD&A标题后，您只需找到随后的“第8项”标题，并在两者之间选择所有内容。解析工具提供了相当准确地执行这些函数的方法。然而，解析中的任何错误都有可能产生巨大的误差。如果您错误地标识了其中任何一个标题，那么该特定文档的MD&A部分的长度和内容将在很大程度上被错误指定。

这些问题具体会怎么发生的呢?让我们列出一些可能出现的问题:(1)在2002年前后，10-K的结构要简单得多，可能不存在单独的MD&A段;(2)段标可能也是不确定的，如许多文件中并不是“项目7”而是“项目6”;(3) MD&A的短语有多种变体，有时也会有拼错的情况;(4) MD&A部分可能出现在附录中，而不是出现在文件的主体中。

5.5、实施

5.5.1、用于文本分析的编程语言

忽略该领域的早期历史，传统上认为Perl是分析文本时选择的编程语言。过去几年来，Perl的普及程度有所下降，而Python已经成为通用编程任务的通用解决方案。这两个软件平台都提供了广泛可用的预先打包解决方案，用于各种解析任务，如HTML删除、句子解析或单词解析。所有主要的统计软件包，如Stata、SAS、SPSS和R，也都是能够很好地分析文本的平台。

使用带有预先打包的解析工具的程序的危险与使用此类程序进行统计时的问题并无不同。也就是说，统计软件包允许用户应用复杂的统计解决方案，以防他们可能没有充分认识到其应用程序的必要假设。类似地，如果我们有一个为句子解析文档的包，我们可能不会完全理解准确地消除大写单词和缩写词的歧义所面临的挑战，尤其是在财务文档的上下文中，这种文档往往具有相对复杂的格式结构。

一个简单的例子是Perl中的Fathom包，它提供了一种为单词生成音节数的方法。使用一份包含4万多个预先确定的音节数的单词列表，我们发现Fathom包在大约75%的情况下是准确的。使用另一种流行的方法Talburt法，其准确度也达到了同样的水平。通过将代码调整为要测试的文本，我们能够轻松地将准确率提高到90%以上。想要获得更高的准确度就需要为特定文本编写特定代码。

在这篇论文中，我们强调了在目标媒体的背景下使用未开发的技术进行研究所存在的问题。类似地，使用通用的预先打包的程序来解析商业相关的文档(在某些情况下可能包含相对复杂的格式结构)，会对文本度量的准确性产生很大的影响。但是，但针对文本编写特殊代码似乎效率不高，而且同样容易出错，或者至少在复制时存在困难。我们建议使用在软件开发中比较常见的解决方案。正如我们的专业人员已经共享了许多核心数据集，我们正在建立一个具有文本分析中使用的常用例程的存储库(圣母大学会计和财务软件存储库，网址为http://sraf.nd.edu)。虽然我们最初将用Python开发代码，但该站点将向其他解决方案开放。如果成功，这个资源库将提供一个系统的开源软件集合，以标准化会计和金融领域的特定应用。

5.5.2、例子

如前所述，文本分析最直接的应用之一是，研究人员识别一个明确的单词或短语，并简单地计算该短语在财务文档中的出现情况。我们提供了这个简单例子。以我们的例子为例，我们假设在10-K文件中使用“非公认会计准则”(non-GAAP)的公司(包括所有10-K变量)更有可能产生更高的后续股票收益波动。与Loughran和McDonald一样，我们使用市场模型的均方根来表示归档后的交易日(6.28)，以此来衡量信息环境中的不确定性。

在这种情况下,“文本分析”就显得很简明。我们有一个定义良好的目标词,这个词也基本不会被认错(例如,它并不经常出现同形异义词)，这样的文档就很好解析。因为在开发软件的过程中，研究人员最有可能反复解析这些文档，所以第一步是将所有SEC 10-K文档下载到本地存储中。SEC备案主文件为每个季度和年度提供一个包含其服务器文件路径的备案主列表，这使得这个过程可以计算地实现。在与10-K相关的各种归档中，该文件的txt版本包含与归档相关的所有信息。为了方便使用这些文件，研究人员通常希望排除所有无关的属性，如HTML、XBRL和嵌入式二进制文件(例如，图形、pdf文件和Microsoft Excel文件)。

在任何应用中，是否将表格列入分析对象都是一个必须要做的决定。识别表格是一项挑战，因为许多公司(特别是在2005年之前)在表格中嵌入了所有段落，包括纯文本。HTML通过计算字母和数字字符的数量来判断表格，我们必须检查它所划分出来的所有表格。对于包含10%以上数字字符的部分，我们将html标识的表标记为“真实”表格。

一旦文档清除了这些组件，在本例中，我们只需查找短语“non-GAAP”。在这种特殊情况下，我们不关心是大写还是小写，所以搜索会忽略这个属性。在对单词进行分类的更复杂的应用程序中，我们将首先使用正则表达式来创建标记列表，即在单词边界之前和之后的字符集合(例如，空格、换行符、标点符号或回车)。然后，我们将使用之前讨论过的字典来列出单词频率。

我们对这个实证案例的假设是，当以非公认会计准则（non-GAAP）做出的业绩表描绘出更乐观的公司前景时，基金经理会引导投资者关注非公认会计准则的数据。例如，如果公司有沉重的债务负担，经理们可能会选择强调非公认会计准则EBITDA的积极趋势，从而掩盖公司产生现金流的能力远远超过他们的利息支出。这种偏离公认会计准则的讨论应该会使投资者的估值更成问题，从而增加公司股票回报的波动性。

从1994年至2011年的10-K公司文件来看，我们发现非公认会计准则仅在大约7.7%的文件中出现。回归结果如表所示，其中申报日后的超额收益波动率为因变量。从这个简单的实践中得出的结果表明，使用术语“非公认会计准则”(non-GAAP)与申报后股票回报波动性增加有关。《华尔街日报》最近的一篇文章认为，在IPO发行中使用非公认会计准则会计准则可能会让投资者感到困惑。

值得注意的是，即使研究人员正确地在年度报告中列出了“非公认会计准则”的频率，我们仍然面临这样一个问题:管理层报告非公认会计准则数字的选择是完全自愿的。因此，不清楚我们是在衡量使用非公认会计准则的影响，还是在研究行业冲击促使公司倾向非公认会计准则的报告。

6、文本分析未来领域

不考虑公司复杂性就比较可读性是有问题的。一个复杂的公司(多个不同的部门、不透明的公司结构和/或难以理解的业务模型)可能生成更难于阅读的商务文档，但这仅因为其业务操作的性质。之前的很多文献都使用相当粗糙的方法来消除公司特有的复杂性影响。

例如，You和Zhang使用10-K字数中位数（e the median 10-K word count)将公司分为低复杂度和高复杂度两类。其他研究人员使用业务细分的数量或基于细分收入的赫芬达尔指数(Herfindahl Index)来捕捉公司层面的复杂性。然而，反例很容易找。像可口可乐这样的大型跨国公司，由于需要考虑其不同的市场，其字数将始终保持在10-K的中位数以上，但其商业模式的复杂性将较低。有些公司只能经营一个业务部门，但通过阅读他们的商业通讯，读者会把它们归为复杂类。显然，业务复杂性有多种形式。

除了将业务复杂性和可读性的概念分离出来所面临的挑战之外，在商务语境中可读性的含义还不清楚。我们建议未来的研究应该集中在更广泛的信息复杂性的概念，而不是考虑可读性的概念。尽管文件大小记录的度量方法在10-K文件中为更广泛的信息复杂性概念提供了合理的解释，但这种度量方法在更短、更少变化的商业文档(如新闻稿、收益电话会议或8-K公告)中可能没有用处。我们需要开发信息复杂性的度量方法，而不仅仅是文档大小的函数。选择关注可读性的研究，必须仔细定义这个概念的含义，以及一个具体的可读性度量如何平衡写作中的技术精确性和简单性。

正如我们在前一节中所讨论的，术语加权有可能增强分析方法的效果，但是，由于缺乏理论动机或独立的验证，为研究人员选择经验规范提供了太多的自由度。希望将来的研究能够提供结构化的分析，为在文本应用程序中指定特定的权重方案提供客观的基础。

尽管一项特定的研究武断地定义自己的情感词会引起怀疑，但在不同文本环境中，显然有一些潜在的词可能会影响情感测量。例如，Larcker和Zakolyukina创建了他们自己的词汇表来检查电话会议，包括不在LM列表中的负面词汇，如:atrocious, barbarous, farcical, idiot, and wonky。LM单词列表是在10-K编档的背景下发展起来的，它能适应其他商业写作模式吗?比如报纸文章或电话会议记录?在许多情况下，Allee和DeAngelis使用的修改LM单词列表以适应其特定的应用的方法似乎很有用

可以检验的一个经济假设是，经理们在电话会议中使用高度不确定或弱模态(例如含糊其辞)的词汇是否会导致随后的股票或经营业绩恶化。此外，研究人员可以研究最初媒体报道对宣布收购的看法。具有较高不确定性情绪的文章可以显著预测较低的完成合并的可能性。这将为媒体文章中的情绪与随后的经济结果之间提供另一种联系。

根茨科(Gentzkow)和沙普里奥(Shaprio)研究了报纸上的媒体倾向性，利用国会记录创造性地列出了民主党议员与共和党议员演讲中常用的短语清单。然后，作者们用当选官员语言中最具党派色彩的短语，将400多份日报按政治倾向进行分类。那些经常使用“贸易赤字”、“石油引发的反恐战争”、“私人财产”、“人类胚胎”和“退休账户”等字眼的报纸，将更倾向于共和党。也许我们可以根据他们在交流中使用的语言来确定那些注定要成功或失败的公司的经理们。伟大的领导者有相似的沟通特质吗?

尽管分析美国证券交易委员会(SEC)的文件远比分析一本典型小说更具挑战性，但分析社交媒体则更具挑战性。俚语、表情符号和讽刺的使用，以及社交媒体上不断变化的词汇，使得对语气的准确分类变得困难。然而，社交媒体是新兴信息的中心来源，一些渠道聚焦于商业活动(例如，http://stocktwits.com)。我们希望能够开发出一种方法，能够更好地捕捉这些嘈杂但丰富的数据源中的信息。

最后，改论文仅关注英语环境下的文本分析，其它语言有着自己的优势与挑战，在不同的语种中词汇与语法逻辑结构都会不同，这需要更多的研究人员投身其中。

7、结论

信息在会计人员记录公司运作和金融市场评估价值方面起着核心作用。研究人员已经仔细考虑了会计和金融的定量数据如何完善我们对商业和金融市场的理解。这个领域中几乎所有的定量数据都是基于文本信息上下文化的，我们现在才刚刚开始拓展文本信息以获得更深入的见解。在这篇论文中，我们试图回顾越来越多的文献在会计和财务的文本分析，讨论最常用的方法，并报告一些与方法相关的困境。我们可以总结一下我们从之前的工作和这次文献调查中所学到的，主要有以下五点:

（1）传统的易读性概念(单词与句子的长度）并不能很好地反映出商业文档的有效性。最常见的可读性指数——Fog指数,效果并不理想,因为(a)在商务文档中测量句子长度是容易出错。(b)大部分商业文档中的多音节的单词很容易理解(c)越简单的文档分析效率越高这一逻辑行不通。Loughran和McDonald除了证明了Fog指数的弱点外，还表明金融术语与他们的信息整合度量是正相关的。这个结果与传统的易读性解释相矛盾，它表明，针对业内人士的词语可以使文档更有效。我们相信，我们从其他学科借用的可读性的基本概念，如果在信息复杂性的框架下进行研究，将会更好地得到理解。

（2）Zipf定律表明：在任何正常的单词列表中，只有很少的单词会出现超高的频数。单词分布的这一特性创造了一个研究环境，在这个环境中，单词错误分类不会简单地只向您的结果中添加少量随机干扰，而是有可能产生巨大的错误。

（3）根据我们的经验，在文本分析中避免错误并提高效率的最好方法是仔细考虑程序、单词列表和统计方法在特定应用环境中有的有效性。避免使用在其他学科背景下产生的单词列表和算法，除非它们首先在你的研究领域被证明是有效的。

（4）在公开你的研究时，不要犯透明度方面的错误。必须详细记录解析方法，特别是对于底层文档具有复杂结构的情况。用于确定有效单词的字典和单词列表必须公开。分类方法方面，无论是简单的单词包还是更复杂的机器学习，都必须揭示主题和驱动方法。事实上，许多期刊现在都提供了关于背景细节的网络附录，这使得这种透明度更加实用。

（5）提供你的方法的描述，使你的研究可复制。尽量让这些程序可以通过相同的引擎运行其他研究人员的文本。发布这样的程序描述对你的文献也是有益的。我们正在启动一个软件资源库，试图开始解决这个问题(圣母大学会计与金融软件资源库http://sraf.nd.edu)。

总之，会计和金融的所有文本研究必须仔细考虑其结果的透明度和可复制性。方法越复杂，必须强调的透明度越高。事后看来，由于这个行业已经开始探索相对较新的文本分析方法，在我们现在所了解的背景下，许多方法的选择可能会有所不同。一些关于情绪、收益、管理选择和股票价格的实证结果应该重新评估。随着计算能力的提高和可供研究的数字文本的激增，还有很多工作要做。

执笔人丨洪振瀚

推荐阅读

“智能财会联盟”共同发起单位邀请函

学术前沿专题回顾